入门
Environment
是确定的,还有一个Replay Memory
来保存已被观测到的状态转移
他们的目标是训练一个discounted
并且cumulative
的Reward函数。他让更久之后的reward的重要性降低。
Q-learning的主要思想是,如果我们有了一个Q函数
$Q^*: State \times Action \rightarrow \mathbb{R}$
那么我们就能够知道我们应该能够采取什么样的动作。那么我们就能轻松地简历一个
policy
来最大话我们的rewards。$\pi^*(s) = argmax_{a} Q^*(s,a)$
这里可以用神经网络来逼近这个Q函数。
这里还有用到一个fact,Q函数遵循Bellman equation
$Q^\pi(s,a) = r + \gamma Q^\pi(s^\prime, \pi(s^\prime))$